Deux requins étiquetés par portions avec les marques des entreprises d'IA génératives nagent dans l'océan

IA générative : GPT-4 entrainé avec un million d’heures de vidéos YouTube

De l'or en Tube ?

Avatar de l'auteur
Martin Clavey

Publié dans

IA et algorithmes

08/04/2024 5 minutes
14

Deux requins étiquetés par portions avec les marques des entreprises d'IA génératives nagent dans l'océan

OpenAI aurait puisé dans les vidéos de YouTube pour se créer un corpus de données d'entraînement utilisé notamment pour GPT-4. La plateforme de vidéos en ligne rappelle que cette pratique est contraire à ses conditions d'utilisation.

Dans la série des données utilisées par les entreprises d'IA génératives, le dernier épisode est un peu singulier. Jusque-là, les conflits concernaient soit des artistes, soit des éditeurs comme le New-York Times. Mais ici, il oppose OpenAI à YouTube, la plateforme de vidéos et filiale de Google qui est aussi l'un des acteurs majeurs du secteur de l'IA générative. Et celui-ci entend bien protéger sa chasse gardée.

Selon des sources du New-York Times, justement, OpenAI aurait retranscrit plus d'un million d'heures de vidéos YouTube et les aurait ajoutées aux données d'entraînement de son modèle de langage GPT-4. Le conflit, ici, ne concerne pas le droit d'auteurs des vidéos, mais la violation des conditions d'utilisations de la plateforme de vidéos.

Recherche données d'entraînement désespérément

La suite est réservée à nos abonnés.

Déjà abonné ? Se connecter

Abonnez-vous

Écrit par Martin Clavey

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

Recherche données d'entraînement désespérément

Sora dans le viseur

Le pré carré de Google

Fermer

Commentaires (14)


Mais ici, il oppose OpenAI à YouTube, la plateforme de vidéos et filiale de Google qui est aussi l'un des acteurs majeurs du secteur de l'IA générative. Et celui-ci entend bien protéger sa chasse gardée.


Si comme le sous-entend ce passage et d'autres parties de l'article, Google interdit l'utilisation des vidéos qu'il héberge aux apprentissages des IA de ses concurrents, n'y aurait-il pas concurrence déloyale et/ou abus de position dominante ?
Oh ça ne serait pas le genre de la maison.
Contraire aux CGU, certes, mais quid du fair use (donc en accord avec la loi, et donc finalement avec ces mêmes CGU) si souvent invoqué par ces entreprises ? 🤣 Je me moque, mais je trouve tout ça tellement ridicule, et surtout vomitif. On observe des requins se battre pour savoir qui aura, au final, plus le droit de nous manger tout cru.
Modifié le 08/04/2024 à 16h07

Historique des modifications :

Posté le 08/04/2024 à 16h04


Contraire aux CGU, certes, mais quid du fair use (donc en accord avec la loi, et donc finalement avec ces mêmes CGU) si souvent invoqué par ces entreprises ? 🤣

Posté le 08/04/2024 à 16h05


Contraire aux CGU, certes, mais quid du fair use (donc en accord avec la loi, et donc finalement avec ces mêmes CGU) si souvent invoqué par ces entreprises ? 🤣 Je me moque, mais je trouve tout ça tellement ridicule, et surtout vomitif. On observe des requins se battre pour savoir qui aura, au final, plus le droit de nous manger tout cru.

On peut choisir par qui être mangé, c'est déjà ça !
1M d'heures de visionnage! Le rêve secret de tout adolescent.
1M d'heures, c'est grosso-modo la vie de Jeanne Calment !

serpolet

1M d'heures, c'est grosso-modo la vie de Jeanne Calment !
Jeanne Calment serait le rêve secret de tout adolescent? :keskidit:

Jon Joe

Jeanne Calment serait le rêve secret de tout adolescent? :keskidit:
:mdr:

N'empêche, J. Calment, décédée en 1997, était ado (15 ans) en 1890, année de naissance de De Gaulle, à qui elle a survécu 27 ans ! À quoi rêvait-elle ? À la ligne bleue des Vosges ?
1M d'heures, ça paraît tellement énorme et tellement peu à la fois. J'espère au moins que les vidéos utilisées étaient un tant soit peu qualitatives.
Certainement, désormais GPT 4 sait que la terre est plate, que les vaccins changent notre ADN, que les chats sont nos dieux etc.
Comme ça, GPT-4 apprendra à faire du placement de produit déguisé :D
Ah bah au moins ça changera dans les réponses de ChatGPT ! Plutôt que de faire la morale à la fin de chaque résultat, il viendra dire "abonnez-vous et mettez un pouce".
L'IA du futur : "Abonnez vous, mettez la cloche, likez et n'oubliez pas d'utiliser un VPN"
Les pubs font aussi partie des données d'entraînement ? Parce que le résultat risque d'être très amusant. Il va recréer notre monde à la Demolition Man où tout le monde chante des spots publicitaires. :mdr: